查看原文
其他

学术前沿 | 统一“感知-结构-语义”的系统泛化性评估

李庆 北京大学人工智能研究院
2024-09-16

 导读 


本文是北京大学人工智能研究院朱毅鑫助理教授联合北京通用人工智能研究院研究员李庆、黄思远在ICLR 2023 发表的论文A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics的介绍。


系统泛化性(systematic generalization)是评估机器学习模型的一个重要维度。为了更全面地测试机器学习模型的系统泛化性,我们提出了一个基于算术推理的新数据集HINT (Handwritten arithmetic with INTegers),来测试模型在概念学习(concept learning)的三个层面(“感知-结构-语义”)的系统泛化能力。在HINT上实验结果表明,目前的深度学习模型(Transformer、GPT-3等)在系统泛化性上仍然有很大的提升空间。


论文链接:(点击下方阅读原文)

https://liqing-ustc.github.io/HINT 

01

前言

概念学习(concept learning)通常可以从三个层面去定义:1.感知层面,即如何从感知信号(比如图像,声音等)中识别这个概念;2.结构层面,即如何将不同的概念正确地组合在一起;3.语义层面,即如何理解每个概念在推理或任务中所表示的语义。学习一个新的概念经常要求从训练数据中解析这个概念的三层含义。


图1是一个基于古埃及文字的解译游戏,我们需要从少量的训练样本中正确地解析出每个符号的形状、语义、以及这些符号的组合规则,从而能系统性地泛化到更复杂的测试样本中。


图1. 古埃及文字解译游戏(https://liqing-ustc.github.io/HINT/Egyptian)


02

HINT:统一“感知-结构-语义”的

系统泛化性评估数据集

在最近几年里,学术界构建了一些数据集来评测模型的系统泛化性。然而,大多数数据集是基于合成数据和简单任务,只涵盖了概念学习的部分层次,比较片面。为了更全面的评测模型的系统泛化性,我们构建了一个基于手写数学表达式的大规模数据集(HINT,Handwritten arithmetic with INTegers),这个数据集可以评测模型在“感知-结构-语义”这三个层面的系统泛化性。HINT的任务很直观:机器输入手写表达式的图像,并预测表达式的最终结果,仅限于整数。由于没有中间监督,因此三层含义在学习过程中可能是相互联系的,模型需要同时学习三层含义来预测出正确的结果。 


为了对模型的泛化能力进行全面严谨的测试,我们引入了一种经过精心设计的评估方案,包括五个子集,重点关注不同层面(“感知”、“结构”、“语义”)的泛化模式(“插值”和“外推”)。此外,我们还设计了一个少样本学习的数据集合,用来测试模型是否可以从有限的例子中快速学习新概念并将其应用于更复杂的情境。

由于HINT在系统概括性上既简单又完整,因此它比先前的数据集具有更大的挑战性:

(i)图像是逼真的手写,具有相当大的视觉差异。

(ii)表达式中的字符之间的结构关系更复杂,具有长距离依赖性。

(iii)算术概念的语义比其他数据集中的简单映射更复杂。


图2.HINT的示例


03

实验结果

图3. HINT上的序列模型


为了促进这个方向的研究,我们对各种序列到序列(seq2seq)模型进行了广泛的实验,包括RNN、Transformers和 GPT-3。实验表明,目前的模型在HINT上还有很大的提升空间:即使是最先进的模型,Universal Transformer也只能在HINT上达到53%的准确率,而这个模型在之前的数据集(如SCAN)上几乎达到完美精度。对每个测试子集的结果进行深入分析表明,目前的模型在处理长距离依赖性和语义方面仍然存在困难。在GPT-3实验中,思维提示链(Chain-of-thought)可以大大提高零样本学习的准确率,可以从8.6%提高到27.6%。


表1.模型使用图像输入的结果


表2.模型使用符号化输入的结果


同时,我们也发现,仅仅通过扩大数据集和模型的规模来解决HINT是不可行的。图3描述了测试精度随模型大小和训练样本数量的变化趋势。假设有一个对数线性(log-linear)的缩放趋势,我们需要在个例子上训练一个包含个参数的模型,才能在测试子集LL上达到90%的准确性,这是不现实的。因此,我们仍然需要高效的架构和训练算法来提升在结构和语义上的泛化性。


图4. 测试精度相对于模型大小和数据集大小的缩放趋势



—   往期发布  —






学术前沿 | SceneDiffuser: 一个模型解决三维场景中的生成、优化和规划

点击图片查看原文






学术前沿 | 基于安全强化学习的多机器人协同控制方法

点击图片查看原文





学术前沿 | 更高效的RLHF技术

点击图片查看原文


—   版权声明  —

本微信公众号所有内容,由北京大学人工智能研究院微信自身创作、收集的文字、图片和音视频资料,版权属北京大学人工智能研究院微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿在本号刊登内容,请及时通知本号,予以删除。

继续滑动看下一个
北京大学人工智能研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存